The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
夜间场景解析(NTSP)对于许多视觉应用是必不可少的,尤其是对于自动驾驶。大多数现有方法都是为了解析白天的现有方法。他们依靠在照明下建模基于像素强度的空间上下文线索。因此,这些方法在夜间场景中表现不佳,因为这种空间上下文提示被埋葬在夜间场景中的过度/暴露区域中。在本文中,我们首先进行了基于图像频率的统计实验来解释白天和夜间场景差异。我们发现,在白天和夜间场景之间,图像频率分布有很大差异,并且了解此类频率分布对于NTSP问题至关重要。基于此,我们建议利用图像频率分布来解析夜间场景。首先,我们提出了一个可学习的频率编码器(LFE),以模拟不同频率系数之间的关系,以动态测量所有频率组件。其次,我们提出了一个空间频率融合模块(SFF),该模块融合了空间和频率信息,以指导空间上下文特征的提取。广泛的实验表明,我们的方法对夜总会,夜城+和BDD100K晚数据集的最先进方法表现出色。此外,我们证明我们的方法可以应用于现有的白天场景解析方法,并在夜间场景中提高其性能。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
实体图像超分辨率旨在将现实世界的低分辨率图像恢复到其高质量版本中。典型的RealSR框架通常包括针对不同图像属性设计的多个标准的优化,通过隐含的假设,即基地图像可以在不同标准之间提供良好的权衡。但是,由于不同图像属性之间固有的对比关系,因此在实践中很容易违反该假设。对比学习(CL)提供了一种有希望的食谱,可以通过使用三重态对比损失学习判别特征来缓解此问题。尽管CL在许多计算机视觉任务中取得了重大成功,但由于在这种情况下很难定义有效的阳性图像对,因此将CL引入REALSR是不平凡的。受到观察的启发,即标准之间也可能存在对比的关系,在这项工作中,我们提出了一种新颖的室友训练范式,称为标准比较学习(CRIA-CL),通过开发根据标准而不是图像贴片定义的对比损失。此外,提出了一个空间投影仪,以便在Realsr中获得CRIA-CL的良好视图。我们的实验表明,与典型的加权回归策略相比,我们的方法在相似的参数设置下取得了重大改进。
translated by 谷歌翻译
深度估计,视觉探测器(VO)和Bird's-eye-view(BEV)场景布局估计提出了三个关键任务,这是驾驶场景感知的三个关键任务,这对于自动驾驶中运动计划和导航至关重要。尽管它们是彼此互补的,但先前的工作通常专注于每个任务,并且很少处理所有三个任务。一种幼稚的方法是以顺序或平行的方式独立实现它们,但是有很多缺点,即1)深度和vo结果遭受了固有的规模歧义问题; 2)BEV布局是从前视图像直接预测的,而无需使用任何与深度相关的信息,尽管深度图包含用于推断场景布局的有用几何线索。在本文中,我们通过提出一个名为jperceiver的新型关节感知框架来解决这些问题,该框架可以同时估算从单眼视频序列中估算尺度感知的深度和vo以及BEV布局。它利用了跨视图几何变换(CGT),以基于精心设计的量表损失来传播从道路布局到深度和VO的绝对尺度。同时,设计了一个跨视图和跨模式转移(CCT)模块,以通过注意机制利用深度线索来用于推理道路和车辆布局。可以以端到端的多任务学习方式对JPERCEIVER进行培训,其中CGT量表损失和CCT模块可以促进任务间知识转移以使每个任务的功能学习受益。关于Argoverse,Nuscenes和Kitti的实验表明,在准确性,模型大小和推理速度方面,JPEREVER在上述所有三个任务上的优越性。代码和模型可在〜\ href {https://github.com/sunnyhelen/jperceiver} {https://github.com/sunnyhelen/jperceiver}中获得。
translated by 谷歌翻译
冠状动脉血管造影(CCTA)易受各种扭曲(例如伪影和噪声)的敏感,这严重损害了心血管疾病的确切诊断。适当的CCTA血管级图像质量评估(CCTA VIQA)算法可用于降低错误诊断的风险。 CCTA VIQA的首要挑战是,冠状动脉的本地部分确定最终质量是很难找到的。为了应对挑战,我们将CCTA VIQA作为多种现实学习(MIL)问题,并利用基于变压器的MIL主链(称为T-MIL),以将沿冠状动脉中心线的多个实例汇总为最终质量。但是,并非所有实例都提供最终质量的信息。有一些质量 - 欧元/负面实例介入确切的质量评估(例如,在实例中仅涵盖背景或冠状动脉的实例是无法识别的)。因此,我们提出了一个基于渐进的增强学习的实例丢弃模块(称为PRID),以逐步删除CCTA VIQA的质量 - 欧尔特尔/否定实例。基于上述两个模块,我们根据端到端优化提出了一个加强的变压器网络(RTN),用于自动CCTA VIQA。广泛的实验结果表明,我们提出的方法实现了现实世界中CCTA数据集的最新性能,超过了以前的MIL方法。
translated by 谷歌翻译
近年来,无监督的单眼深度和自我运动估计引起了广泛的研究关注。尽管当前的方法达到了高度最高的准确性,但由于训练单眼序列的训练,由于固有的规模模棱两可,它们通常无法学习真实的度量标准。在这项工作中,我们解决了这个问题,并提出了Dynadepth,这是一个新颖的规模感知框架,该框架整合了Vision和IMU运动动力学的信息。具体而言,我们首先提出IMU光度损失和交叉传感器光度一致性损失,以提供密集的监督和绝对尺度。为了完全利用两个传感器的互补信息,我们进一步驱动以相机为中心的扩展Kalman滤波器(EKF),以更新IMU预先整合运动时,在观察视觉测量时。此外,EKF公式可以学习一种自我运动不确定性度量,这对于无监督方法是不平凡的。通过在训练过程中利用IMU,Dynadepth不仅学习了绝对规模,而且还提供了更好的概括能力和稳健性,以防止视力退化,例如照明变化和移动对象。我们通过对Kitti和Make3D数据集进行大量实验和模拟来验证Dynadepth的有效性。
translated by 谷歌翻译
典型的多源域适应性(MSDA)方法旨在将知识从一组标记的源域中学习的知识转移到一个未标记的目标域。然而,先前的工作严格假设每个源域都与目标域共享相同的类别类别,因为目标标签空间无法观察到,这几乎无法保证。在本文中,我们考虑了MSDA的更广泛的设置,即广义的多源域适应性,其中源域部分重叠,并且允许目标域包含任何源域中未呈现的新型类别。由于域的共存和类别跨源域和目标域的转移,因此这种新设置比任何现有的域适应协议都难以捉摸。为了解决这个问题,我们提出了一个变分域分解(VDD)框架,该框架通过鼓励尺寸独立性来分解每个实例的域表示和语义特征。为了识别未知类别的目标样本,我们利用在线伪标签,该标签将伪标签分配给基于置信分数的未标记目标数据。在两个基准数据集上进行的定量和定性实验证明了拟议框架的有效性。
translated by 谷歌翻译
广义的零射击学习(GZSL)旨在通过将语义知识从看见的类别转移到看不见的阶级来识别所见类和看不见的类别的图像。这是一个有希望的解决方案,可以利用生成模型的优势,以根据从所见类中学到的知识来幻觉现实的看不见的样本。但是,由于产生的变化,大多数现有方法的合成样本可能从看不见的数据的实际分布中偏离。为了解决这个问题,我们提出了一个基于流动的生成框架,该框架由多种条件仿射耦合层组成,用于学习看不见的数据生成。具体而言,我们发现并解决了触发产生转移的三个潜在问题,即语义不一致,方差崩溃和结构障碍。首先,为了增强生成样品中语义信息的反射,我们将语义信息明确嵌入到每个条件仿射耦合层中的转换中。其次,为了恢复真正看不见的特征的固有差异,我们引入了一种边界样本挖掘策略,具有熵最大化,以发现语义原型的更困难的视觉变体,并在此调整分类器的决策边界。第三,提出了一种相对定位策略来修改属性嵌入,引导它们充分保留类间的几何结构,并进一步避免语义空间中的结构障碍。四个GZSL基准数据集的广泛实验结果表明,GSMFlow在GZSL上实现了最先进的性能。
translated by 谷歌翻译
我们开发了一种新的原则性算法,用于估计培训数据点对深度学习模型的行为的贡献,例如它做出的特定预测。我们的算法估计了AME,该数量量衡量了将数据点添加到训练数据子集中的预期(平均)边际效应,并从给定的分布中采样。当从均匀分布中采样子集时,AME将还原为众所周知的Shapley值。我们的方法受因果推断和随机实验的启发:我们采样了训练数据的不同子集以训练多个子模型,并评估每个子模型的行为。然后,我们使用套索回归来基于子集组成共同估计每个数据点的AME。在稀疏假设($ k \ ll n $数据点具有较大的AME)下,我们的估计器仅需要$ O(k \ log n)$随机的子模型培训,从而改善了最佳先前的Shapley值估算器。
translated by 谷歌翻译